Nutch相关论文
介绍一种从网络文献数据库中自动采集机构学术成果并存储到DSpace平台的实验系统(DAAS),并实现信息过滤、元数据提取、版权验证、元......
面对日益专业和个性化的信息检索需求,通用搜索引擎存在的问题暴露无遗。垂直搜索技术作为搜索引擎发展的一个主要方向,正在受到越......
针对目前主题搜索引擎检索结果的主题相关度不能满足专业用户需求的问题,以图情博客为切入点并以开源搜索引擎Nutch为技术框架尝试......
随着网络信息的指数级增长以及行业分工的不断加大,专业领域应用中网络信息在精度和深度方面的缺陷日益明显,专业领域主题Web信息的......
随着信息的不断膨胀,人们越来越离不开搜索引擎。通用搜索引擎如百度、Google给人们提供了很多便利,得到了极大的流行。但是随着人们......
基于Nutch开源搜索引擎框架,本文对其所基于的Hadoop平台提出了一种基于数据块动态分配的策略,从而实现了文件的分块存储,同时改进......
随着网络的普及,Internet上存在越来越丰富的史学信息,历史研究工作者和历史学家们通过网络获取所需要的信息,但同时也面临着Web上......
随着学术信息的快速膨胀和互联网技术的快速发展,近年来,网络中的学术资源呈现出规模大、增长速度快、来源和组织结构不统一的特征......
网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动地对网页上大量数据信息的收集、解析、格式化存储,提出......
伴随着互联网技术的迅猛发展,全球每天产生的数据量呈爆炸式增长,相关的大数据关键技术也得到大力发展,其中的云计算技术已经发展......
在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信......
随着互联网络的发展,网络中存储的信息量急剧增加,搜索引擎在网络中占据着越来越重要的位置.本文基于分布式处理平台Hadoop和开源......
随着Web信息量的飞速增长,越来越多的人希望能够快速且有效地找到自己所需要的与特定领域主题有关的信息,目前通用搜索引擎(search e......
随着科技与教育的快速发展,校园信息资源越来越丰富,共享越来越方便,但学生更希望在庞大的校园信息中获取与自己的需求及兴趣相关......
摘要:该文主要介绍了垂直搜索引擎的概念及优越性,对垂直搜索引擎理论和技术进行了深入的分析,重点介绍了网络蜘蛛的运行规则设计,并使......
文章描述了以留学信息深度搜索引擎的搭建为例进行基于Nutch的插件开发.首先使用Nutch作为网络爬虫,并使用TF-IDF算法构建特征词库......
Nutch是开源搜索引擎,Hadoop是Apache开发的类似于GoogleGFS和MapReduce的开源云平台.利用Nutch和Ha—doop可以设计高效、可靠、可扩......
Nutch是一个开源的搜索引擎,它在中文分词的效率和准确度上不能满足实际需要。本文对Nutch中的原分词方法进行修改,提高了信息检索......
针对高校网络舆情监测工作的不足,结合高校舆情信息的传播特点,提出构建舆情监测系统的整体方案。在校园网内基于Nutch搜索引擎技......
为提高通用搜索引擎对医学学科及主题的覆盖率,在开源搜索框架Nutch平台上,通过构建医学词典,结合中文分词插件,构建了一个面向医学信......
由于通用搜索引擎包含了广泛的主题,其搜索结果无法满足领域用户对信息的精确查找,而专题搜索引擎是解决特定领域的搜索引擎,满足......
由于通用搜索引擎包含了广泛的主题,其搜索结果无法满足领域用户对信息的精确查找,而专题搜索引擎是解决特定领域的搜索引擎,满足......
Nutch是一个开放源代码的Web搜索引擎,基于开源搜索框架Lucene,扩展性较好。Nutch是针对英文开发的,对中文只进行单字切分。通过分析N......
对web文本聚类中的数据预处理、聚类算法及结果评估等进行了分析研究.在由lucene和nutch构建的搜索引擎的基础上,提出基于k—means聚......
论述Nutch插件机制的设计目标,分析归纳Nutch轻量级插件体系结构所包括的3组基本概念:微内核、扩展点和扩展;插件、插件清单和插件清......
论述Nutch插件机制的设计目标,分析归纳Nutch轻量级插件体系结构所包括的3组基本概念:微内核、扩展点和扩展;插件、插件清单和插件清......
对web搜索引擎的定义、原理、流程以及分词等相关知识做了简单阐述,并结合Google例子对Web搜索引擎的应用技术进行分析.最后讨论了基......
摘要: Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个......
摘要: Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个......
重点讨论了搜索引擎原理及基于Nutch的搜索引擎的实现架构,同时对网页抓取过程作了深入的研究和分析。最后,给出了基于Nutch的中文搜......
分析了Nutch的语言分析器结构,针对Nutch对中文进行单字切分的不足,结合基于多层隐马模型的汉语词法分析系统ICTCLAS,以JavaCC脚本设......
分析了Nutch的语言分析器结构,针对Nutch对中文进行单字切分的不足,结合基于多层隐马模型的汉语词法分析系统ICTCLAS,以JavaCC脚本设......
研究了中文分词技术的原理,比较了现有分词器的速度和准确性。通过研究开源搜索引擎Nutch的架构和工作流程,分析了源代码,在Nutch......
针对现有的E-learning学习系统没有可供学习者搜索知识的功能,自带的检索也只能为学习者提供无差别的、千人一面的搜索结果,从而使......
针对现有的E-learning学习系统没有可供学习者搜索知识的功能,自带的检索也只能为学习者提供无差别的、千人一面的搜索结果,从而使......
Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式......
本文描述了一个基于Lucene和Nutch实现的林业垂直搜索引擎,给出了系统框架,其可以为林业用户提供专业的资源检索服务。......
本文描述了一个基于Lucene和Nutch实现的林业垂直搜索引擎,给出了系统框架,其可以为林业用户提供专业的资源检索服务。......
本文通过分析校园网网站信息的特点,采用Nutch网络爬虫和Lucene技术构建一个校园网全文检索系统,解决了中文分词等问题,提高了用户搜......
在网络的海量信息搜索过程中,医学情报研究和信息服务机构,经常需要构建面向专题的垂直搜索系统以满足特定人群的需求.本文利用Nut......
在研究垂直搜索引擎的设计思想、相关技术的基础上,利用Nutch开源框架设计实现了农业环境信息的垂直搜索引擎,支持了对特定信息的......
基于开源搜索引擎Nutch,通过修改、调整和创新研制了文中介绍的6搜——一个专门搜索支持IPv6协议网站的专用IPv6搜索引擎。6搜的特......
Nutch的排序机制使得一些传统的高质量的页面经常出现Web检索结果的前面,而新加入的高质量的Web页面很难被用户找到。针对传统基于......
垂直搜索引擎可以实现行业主题的精准搜索,建设纺织品垂直搜索引擎,显然可以促进电子商务发展。该文论述了基于lucene的开源平台Nu......
垂直搜索引擎可以实现行业主题的精准搜索,建设纺织品垂直搜索引擎,显然可以促进电子商务发展。该文论述了基于lucene的开源平台Nu......
文章针对垂直搜索引擎技术进行了介绍,介绍了通用信息检索技术、信息抽取技术和信息抓取技术,例如Nutch和GATE。并利用当前流行的技......
文章针对垂直搜索引擎技术进行了介绍,介绍了通用信息检索技术、信息抽取技术和信息抓取技术,例如Nutch和GATE。并利用当前流行的技......
高校招生生源日益缺少,为了考生和学校的双重利益,尽量减小由于信息问题产生的考生误报和学校的生源流失,该文有针对性的对此类问题进......